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一 种 自 下 而 上 的 人 脸 检 测算 法 
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摘 要: 针对 在 非 控 条 件 下 的 人 脸 检测 经 常 遇 到 的 问题 ， 如 复杂 的 人 脸 姿态 表情 、 严 重 的 人 脸 庶 挡 、 外 界 环境 背景 
杂 、 光 有 照 条 件 差 、 小 人 脸 等 提出 了 一 种 自 下 而 上 的 人 脸 检 测 方法 。 自 下 而 上 的 人 脸 检 测 是 基于 深度 学 习 的 ， 先 进行 人 
脸 相 关 关 键 点 检测 和 关键 点 之 间 的 位 置 关系 检测 再 进行 人 脸 检 测 。 网 络 结构 采用 稠密 网 络 进行 图 像 特征 提取 ， 提 取 到 
的 特征 传送 给 6 个 级 联网 络 ， 每 个 级 联网 络 由 两 个 分 支 网 络 构成 ， 分 支 网 络 1 用 来 预测 人 脸 相 关 关 键 点 位 置 坐标 ， 分 
支 网 络 2 用 来 预测 关键 点 之 间 的 位 置 关系 。 利 用 得 到 的 关键 点 位 置 和 位 置 关系 进行 人 脸 检 测 。 在 FDDB 测试 集 上 进 

了 了 验证， 取得 了 0.98 的 成 绩 ， 并 可 以 在 输入 图 像 分 辩 率 为 1920X1080 的 情况 下 ， 能 检测 到 的 最 小 人 脸 分 状 率 为 10X 
10， 使 用 GPU Nvidia Gefore GTX 1070 最 快 能 达到 17 fps。 
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Bottom-up face detection algorithm 


Zhang Ning, Wu Pinghuif 
(Tianjin Key Laboratory of Electronic Materials & Devices, School of Electronic & Information Engineering Hebei University 
of Technology, Tianjin 300401, China) 


Abstract: Faced with the problems often encountered in face detection under non-controlled conditions, such as complex facial 
expression, serious face occlusion, complex external environment, poor lighting conditions, tiny face, etc. A bottom-up face 
detection method is proposed. Bottom-up face detection is based on deep learning, face detection and key points of the first 
position-related key detection and then face detection. Convolution neural network structure using dense network for image 
feature extraction, the extracted features are transmitted to 6 cascaded networks, each of which consists of two branch networks. 
Branch network 1 is used to predict the coordinates of face-related key points. Branch network 2 is used to predict the position 
between key points relationship. Face detection is performed by using the obtained key point position and position relationship. 
The FDDB test set was verified and achieved 0.98 results, and the smallest face resolution 10 X10 can be detected at the 
resolution of input image 1920 X 1080, used the GPU Nvidia Geforce GTX 1070 for up to 17fps video detection. 
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轴 大 于 20x 20。 根据 国内 外 对 人 脸 检测 算法 的 研究 热度 来 看 ， 
I 检测 小 脸 仍然 是 值得 挑战 的 项 目 
在 “911? 事 件 之 后 ,人 脸 检测 识别 逐渐 成 为 国际 反恐 和 安全 国外 主要 有 MIT、CMU、CORNELL 等 大 学 和 Google 
防范 重要 的 手段 之 一 。 随 着 人 工 智 能 时 代 的 到 来 ， 机 器 视觉 领 DeepMind、Facebook OpenMind 等 一 些 研究 机 构 ， 国 内 主要 有 
域 得 到 了 进一步 的 发 展 。 目 前 在 目标 检测 、 目 标识 别 、 清华 大 学 、 北 京 大 学 、 中 国 科 学 院 计 算 机 所 、 中 国 科学 院 自 动 
割 等 机 器 视觉 项 目 大 赛 中 ， 那 些 基 于 深度 学 习 的 算法 准确 性 明 ”化 所 等 一 系列 高 校 和 研究 机 构 都 致力 于 解决 现实 生活 中 的 人 脸 
显 高 于 传统 的 手工 设计 特征 提取 的 算法 准确 性 。 尽 管 基于 深度 ”检测 定位 问题 。 对 于 人 脸 检 测 的 挑战 也 主要 有 三 方面 : a) 人 脸 
学 习 的 算法 可 以 解决 大 部 分 目标 检测 的 问题 ， 但 是 目前 仍 有 小 ” 姿态、 表情、 遮挡 等 内 在 的 因素 ; b) 受 外 界 环境 因素 干扰 ， 如 
目标 检测 的 问题 深度 学 习 解决 的 还 不 是 很 好 。 为 解决 人 脸 检测 ”光照 不 均匀 或 者 光照 条 件 很 差 ， 人 脸 成 像 带 有 动态 模糊 等 外 在 
中 小 脸 的 问题 ， 提 出 了 一 种 自 下 而 上 的 人 脸 检测 方法 。 小 脸 就 ”因素 ; co) 时 效 性 , 若是 算法 过 于 复杂 , 计算 量 很 大 会 直接 影响 算 
是 指 在 图 像 分 辨 率 为 1920x1080 情 况 下 , 人 脸 成 像 分 状 率 不 ”法 时 效 性 ， 无 法 满足 基于 视频 监控 的 人 脸 实 时 性 检测 要 求 。 
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针对 以 上 三 个 方面 的 挑战 ， 提 出 了 一 种 自 下 而 上 的 人 脸 检 测 方 
法 。 通 过 设计 卷 积 神经 网 络 结构 ， 构 造 目 标 函数 ， 再 利用 反 向 
传播 算法 来 不 断 更 新 模型 中 的 参数 ， 直 到 目标 函数 最 小 化 。 经 
过 在 FDDBI 人 脸 数据 集 上 的 测试 ， 得 到 了 很 好 的 结果 ， 同 时 


好 联结 攀 stage=1 


级 联结 攀 stage= 三 二 


1 “人 脸 检测 算法 概述 


当前 基于 深度 学 习 的 人 脸 检测 算法 性 能 普遍 优 于 传统 的 手工 设 
计 特 征 提取 的 人 脸 检测 算法 外 。 主 流 的 人 脸 检测 算法 有 采用 级 
联结 构 的 Cascade CNNBGI、MTCNNI、ICC6]， 采 用 端 到 端的 
Finding Tiny Facest 中 ,还 有 根据 基于 卷 积 神经 网 络 的 目标 检测 中 
改 成 的 人 脸 检测 由。 下 面 简单 地 介绍 其 中 几 种 算法 。Cascade 
CNN 采用 6 个 级 联 的 浅 层 网 络 ， 其 中 3 个 进行 人 脸 / 非 人 脸 的 
二 分 类 , 另外 3 个 进行 人 脸 框 的 校准 ， 也 就 是 进行 45 分 类 , 利 
标定 人 脸 框 左上 角 的 坐标 值 4 * 》 ) 和 标定 人 脸 框 的 宽度 Ww 
和 高 度 严 ， 寻 取 1 一 45 的 整数 ， 采 用 式 (1) 一 4) 进行 人 脸 


ID 


框 的 校准 。 该 算 在 标准 VGA 图 像 基 于 CPU 的 检测 中 可 以 达到 
14 fps， 基 于 GPU 可 以 达到 100 fps。 


x, €{—0.17,0,0.17} (1) 
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和 (2) 
5 5 5 8, 
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s, € {0.83,0.91,1.0,1.1,10.21} (G3) 


y, e {0.17,0,0.17} a 

MTCNN 相对 于 Cascade CNN， 也 采用 级 联 方式 进行 人 脸 
检测 ， 但 是 不 同 之 处 是 MTCNN 采用 三 层级 联网 络 结构 ， 三 个 
网 络 同时 进行 训练 人 脸 和 非 人 脸 二 分 类 、 人 脸 候 选 框 回归 、 人 
脸 对 齐 操作 ， 属 于 多 任务 级 联网 络 。Hu 等 人 铅 提 出 的 Finding 
Tiny Faces 针对 解决 人 脸 检测 中 的 小 脸 问题 得 到 了 很 好 的 效果 ， 
该 方法 提出 可 以 充分 利用 人 脸 上 下 文 信息 和 缩放 图 像 分 状 率 进 
行 小 脸 检 测 ， 是 一 个 端 到 端的 网 络 结构 。Jiang 等 人 [31 将 Faster 
R-CNNBI 进 行 目 标 检测 的 网 络 利 用 迁移 学 习 改 成 了 人 脸 检测 网 
络 。 本 文 提 出 的 一 种 自 下 而 上 的 人 脸 检测 算法 将 与 以 上 算法 在 
FDDB 测试 集 上 进行 对 比 实验 。 
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也 在 监控 视频 的 场景 下 进行 了 测试 ， 可 以 满足 在 输入 图 像 分 辨 


率 为 1920x1080 的 监控 场景 下 , 能 检测 到 的 最 小 人 脸 分 辩 率 
为 10x10， 使 
fps。 


j GPU Nvidia Gefore GTX 1070 最 快 能 达到 17 


图 1 人 脸 检 测 网 络 结构 


2 ” 自 下 而 上 的 人 脸 检测 


2.1 ” 卷 积 神经 网 络 原理 

前 卷 积 神经 网 络 在 图 像 领 域 和 语音 领域 取得 了 很 好 的 成 绩 。 
卷 积 神经 网 络 是 一 个 层级 结构 , 由 卷 积 层 、 激 活 层 0 、 池 化 层 、 
归 一 化 层 01、 全 连接 层 等 构成 ， 最 后 还 要 连接 损失 层 。 卷 积 神 
经 网 络 的 计算 分 为 两 个 过 程 ， 即 前 向 传播 和 反 向 传播 0 了 1。 前 向 
传播 指 的 就 是 输入 的 数据 经 过 卷 积 神经 网 络 的 层级 结构 最 终 会 
到 达 损 失 层 ， 对 每 一 层 的 作用 进行 一 个 简要 说 明 ， 卷 积 层 进行 
卷 积 操作 提取 图 像 特征 信息 ， 激 活 层 引入 非 线 性 特性 ， 池 化 层 
进行 降 维 操作 ， 可 以 减少 整个 网 络 计算 时 间 ， 归 一 化 层 可 以 加 
快 网 络 的 收敛 速度 ， 使 得 到 的 模型 具有 一 定 的 泛 化 能 力 ， 全 连 
接 层 起 到 一 个 类 似 “ 分 类 器 ”的 作用 。 反 向 传播 可 以 简单 地 理 
解 为 复合 函数 的 链 式 法 则 ， 利 用 经 验 风险 最 小 化 ， 将 损失 函数 
的 计算 值 逼 近 为 0， 这 样 预测 值 和 真实 值 就 可 以 相差 最 小 或 者 
一 样 了 。 为 了 达到 这 一 目的 ， 必 须要 更 新 各 个 层级 结构 中 的 权 
重 值 W 和 偏 置 b， 只 有 W，b 改变 了 才能 改变 预测 值 ， 而 Ww 
和 的 更 新 完全 依靠 求 导 的 链 式 法 则 。 

2.2 网 络 结构 

一 种 自 下 而 上 的 人 脸 检测 算法 是 受 Cao 等 人 03 的 启发 。 自 下 而 
上 指 的 是 通过 先 检测 人 脸 相关 关键 点 和 关键 点 之 间 的 位 置 关 系 
再 确定 人 脸 大 小 及 位 置 。 人 脸 相 关 关 键 点 检测 的 同时 还 进行 了 
关键 点 之 间 的 位 置 关系 检测 ， 这 样 做 的 好 处 是 可 以 更 加 准确 地 
检测 出 人 脸 位 置 ， 在 很 大 程度 上 克服 了 人 脸 表 情 、 人 脸 姿态 、 
人 脸 遮挡 以 及 背景 环境 复杂 等 带 来 的 影响 。 而 且 受 Finding Tiny 
Face 和 ICC 启发 ， 结 合 上 下 文 信息 ， 利 用 了 肩膀 和 脖子 这 些 和 
人 脸 有 关联 的 部 位 , 能 检测 到 的 最 小 人 脸 分 辩 率 为 10x10, 又 
通过 优化 网 络 结构 , 在 输入 图 像 分 辨 率 为 1920x1080 的 情况 
下 ， 使 用 GPU Nvidia Gefore GTX1070 最 快 能 达到 17 fps。 
整个 网 络 结构 如 图 1 所 示 。 采 用 分 支 网 络 1 来 预测 人 脸 相 关 关 
键 点 位 置 ,分 支 网 络 2 来 预测 关键 点 位 置 之 间 的 关系 。 特 征 网 络 
采用 稠密 网 络 (DenseNet) [04 意味 着 每 个 卷 积 层 之 间 都 直接 连 
接着 。 普 通 的 网 络 层 是 第 LL 层 有 工 个 连接 ,如 图 2 〈a) 所 示 , 第 
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个 连接 是 卷 积 层 4 和 卷 积 层 3 之 间 的 
之 前 的 层 之 间 的 连接 。 稠 密 网 


4 个 卷 积 层 有 4 个 连接 ， 
连接 , 剩 下 的 3 个 连接 是 卷 积 层 4 


(b) 4 层 卷 积 网 络 的 稠密 网 络 
图 2 稠密 网 络 与 普通 网 络 对 比 


所 有 卷 积 层 直接 连接 ,这 样 做 有 三 个 好 处 : a) 避 免 了 反 传 时 的 梯 
度 消 失 问 题 ; b) 低 层 的 语义 信息 可 以 直接 传递 给 更 高 层 ,使 特征 
可 以 重复 利用 ; 9 可 以 减少 超 参数 ,降低 了 过 拟 合 的 风险 ,这 一 点 
满足 了 网 络 加 深 的 同时 既 提升 精度 也 保证 了 速度 。 

对 图 1 网 络 结构 的 级 联结 构 进 行 展 开 就 如 图 3 所 示 , 可 以 看 到 级 
联结 构 处 于 第 一 阶段 也 就 是 stage=1 时 ,是 第 一 级 级 联 ,采用 全 卷 
积 结 构 ,没有 使 用 全 连接 层 。 第 一 级 级 联 中 分 支 网 络 1 和 2 一 样 
都 有 5 个 卷 积 层 , 参 考 AlexNet 网 络 结构 ,并 在 卷 积 层 1、2、3、 
4 后 面 紧 跟 激活 层 Relu, 后 面 的 卷 积 层 5 参考 FCN0D5 网 络 结构 ， 
采用 的 卷 积 核 为 1 x 1, 代 蔡 了 全 连接 层 的 作用 ,其 余 卷 积 层 采 用 
的 卷 积 核 为 3x3, 最 后 面 连接 的 是 损失 层 。stage 之 2 时 ,分 支 网 
络 1 和 2 都 采用 7 个 卷 积 层 , 卷 积 层 1 到 6 卷 积 核 大 小 为 3x3， 
卷 积 层 7 卷 积 核 大 小 为 1 x 1, 最 后 连接 一 个 损失 层 , 损 失 层 1 和 


2 分 别 采用 损失 函数 如 式 (5) (6) 所 示 。 
n mm (5) 
工 = 之 之 | 分 一 攻取 
i=1 j=l 
其 中 : n 表示 关键 点 的 数量 ，m 表示 人 脸 的 数量 ; yi 表示 第 


j 个 人 脸 的 第 i 个 人 脸 关键 点 的 真实 值 ， y; 表示 第 j 个 人 脸 的 


第 1 个 人 脸 关 键 点 的 预测 值 。 


< 一 
zZ 而 沙 胰 


络 第 工 层 有 三 (入世 个 连接 ,如 图 2 (b) 所 示 , 第 4 个 卷 积 层 


有 10 个 连接 。 每 一 个 卷 积 层 都 与 之 前 的 


ee ee ee ee ee ee ee ee ee ee ee ee ee ee mm = 


向 ”stage > 2 分支 网 络 1 | 


中 
明 
茶 


级 联网 络 结构 


天 这 


>; —y; 


1 
k=] j=l 
. (6) 


其 中 : 7 表示 关键 点 位 置 关系 的 数量 ; 1 表示 人 脸 的 数量 ;外 


表示 第 个 人 脸 的 第 个 人 脸 相 关 关键 点 位 置 关 系 的 真实 值 ; 


y 表示 第 j 个 人 脸 的 第 外 个 人 脸 相关 关键 点 位 关系 的 预测 


值 。 
分 支 网 络 1 进行 人 体 8 个 关键 点 预测 ( 右 耳 、 右 眼 、 鼻 子 、 左 
眼 、 左 耳 、 脖 子 、 右 肩 、 左 肩 ) ,分 支 网 络 2 预测 相 邻 两 个 关键 
点 之 间 的 位 置 关系 ,如 图 4 所 示 。 值 得 注意 的 是 ,stage 之 2 时 输入 
不 仅 来 自前 一 阶段 的 特征 信息 , 还 有 来 自 DenseNet 网 络 提取 的 
特征 信息 。 


到 4 检测 的 关键 点 
Ci 为 相 邻 两 个 关键 点 之 间 位 置 关 系 的 置信 和 度 得 分 ， di; 为 相 邻 
两 个 关键 点 之 间 的 距离 ，i 取 1 一 7 个 整数 。 


d 根据 距离 计算 式 (7) ，X, 、y, 分 别 为 相 邻 两 个 关键 点 其 中 


一 个 点 的 横 坐 标 和 纵 坐标 ，X，、y 分别 为 另 一 个 点 的 横 坐标 


和 纵 坐 标 。 


d= Ge n+, yy,) 7) 


2.3 人体 检测 流 程 


整体 的 人 脸 检测 流程 如 图 4 所 示 。 其 中 图 4 (a) 为 输入 图 
像 ，(b) 是 分 支 网 络 1 关键 点 检测 可 视 化 结果 ; 《〈c) 分 支 网 


来 进行 关键 点 位 置 关系 预测 可 视 化 结果 ; 网 络 输 出 的 检 


络 2 
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测 结果 如 图 4 〈d) 所 示 ; 


利用 人 脸 关 键 点 位 置 之 间 的 罗 辑 关系 


就 可 以 画 出 人 脸 检 测 框 ， 如 图 4 〈e) 所 示 。 


人 脸 框 的 


信 度 得 分 Cs 根据 式 (8) 


(b) 


ChinaXiv 合 作 期 刊 
张 宁 ， 等 : 一 种 自 下 而 上 的 人 脸 检测 算法 
CQ 
人 
i d, 


计算 人 脸 框 的 算法 流程 如 下 : 


(c) 


图 4 人 脸 检 测 流程 


a) 根 据 网 络 模型 可 获得 关键 点 的 位 置 坐 标 以 及 相 邻 两 点 间 位 置 


关系 的 置信 度 得 分 ， 利 用 关键 点 鼻子 坐标 ( X& 了 ，y 呈 了 ) 。 


b) 利 用 式 (7) 计算 di,d,,d;, da。 


o) 计 算 人 脸 框 左上 角 举 标 位 置 (入 ,,， ys ) ， 右 下 角 坐 标 


位 


l CN mi Yowi a 和 计算 公式 如 (8) 一 所 示 。 人 脸 


DA 二 


在 水 平方 向 分 为 右 侧 脸 Cd > d, ) , 正 脸 (qd = 4 承 0 ) , 左 


便 脸 (dl < df ) 三 种 姿态 。 


Xi 了 7 一 dd，0>0 
=)Xs7 -12.d, di=d,#Q,) 
Xs di, di<d, 
ya -1.l.di-d,, di>d, 
yo =) Yas 16d, di=d, #0) 

yar -1.1l:d,,-d! di<d, 


浙 


Xa td,, di>d, 
及 (10) 
=4Xs7 +1.2.d, di=d,#0 


Xa +d,+ds, di<d, 


ymar +l1.l:d,+d!, di,>d, 


ya +1.6:d, di=4d, 0, 
yar tl1.l:ditd,, di<d, 


d) 利 用 NMS 将 重 共 的 人 脸 框 进行 去 除 ， 剩 下 的 人 脸 框 映 


射 到 原 图 ， 得 到 人 脸 检 测 的 最 终结 果 。 


3 


3.1 


行 模型 训练 。 该 数据 


数 提 


训练 过 程 


训练 数据 准备 

训练 数据 采用 微软 提供 的 COCOU9 数 据 集 ， 使 用 caffe 进 
集 的 训练 集 包 含 超过 了 10 万 个 人 的 标注 
居 ， 约 有 1 百 万 个 人 体 关 键 点 ， 但 本 算法 只 利用 部 分 人 体 关 


键 点 (如 人 的 左右 耳 条 、 左 右 眼 睛 、 眉 子 、 左 右 肩膀 和 脖子 ) 。 


同时 在 训练 过 程 中 采用 数据 增 广 的 策略 ,对 训练 样本 进行 旋转 、 
翻转 等 ， 目 的 是 增加 模型 的 泛 化 能 力 。 部 分 训练 样本 的 数据 如 
图 5 所 示 ， 可 视 化 了 关键 点 和 关键 点 位 置 关 系 ， 同 时 还 利用 掩 


膜 湾 盖 了 未 进行 标注 的 人 体 关键 部 位 ， 这 将 有 助 于 网 络 模型 学 
习 人 体 关键 点 ， 其 他 未 标注 的 人 体 关键 点 不 会 当 作 负 样本 影响 
网 络 学 习 。 


3.2 


5 训练 数据 
端 到 端 训练 


训练 阶段 采 


] 6 个 级 联网 络 (stage=6) ， 其 中 从 第 二 个 级 


联网 络 到 第 六 个 级 联网 络 的 结构 都 是 一 样 的 ， 相 当 于 将 每 个 级 


联网 络 结构 模块 化 。 每 个 级 联网 络 结构 都 有 损失 层 ， 防 止 网 络 
过 深 梯 度 无 法 反 传 。 整 个 训练 过 程 是 端 到 端的 ， 并 不 需要 逐个 
训练 每 个 级 联网 络 。 初 始 学 习 率 设置 为 0.005, 迭代 600 000 次 。 


4 


人 脸 包含 各 种 姿态 、 
环境 .不 同 分 辨 率 以 及 不 同 聚 焦 环 境 下 , 有 灰 度 图 也 


实验 结果 


FDDB 数据 集 


2 845 张 图 像 、5171 个 人 脸 。 收 集 的 这 些 
各 种 面部 表情 、 不 同 光照 环境 、 不 同 背 景 
彩色 图 。 
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在 标注 中 ,人 脸 的 宽度 和 高 度 均 不 小 于 20 个 像素 点 , 同时 采用 
椭圆 标注 ， 可 以 更 进一步 地 贴 合 人 脸 。 本 文 提出 的 自 下 而 上 的 
人 上 脸 检测 算法 在 FDDB 数据 集 上 的 检测 效果 如 图 6 所 示 。 其 中 


展示 了 在 光照 条 件 差 、 人 脸 被 谈 挡 、 人 脸 表 情 姿 态 很 复杂 以 及 
人 脸 模 糊 情况 下 的 检测 效果 。FDDB ROC 曲线 如 图 7 所 示 。 


True positive rate 
[=] 
i 


Faster R-CNN(0.961) —— 
Cascade CNN(0.856) 一 -一 
Finding Tiny Faces(0.979) 一 -一 
ICC CNN(0.972) 一 一 
MTCNN(0.951) 一 -一 
OURS(0.980) 一 -一 


0 1000 2000 3000 4000 5000 6000 
False positives 
(a) Discontinuous ROC curves 


True positive rate 
口 
a 


0.4 
0.3 | 
Faster R-CNN(0.724) —— 
02 Cascade CNN(0.667) 一 -一 
Finding Tiny Faces(0.696) 一 -一 
01 ICC CNN(0.725) 一 -一 


MTCNN(0.714) 
OURS(0.748) 


0 1000 2000 3000 4000 5000 6000 
False positives 


(b) Continous ROC curves 

图 7 FDDB ROC 曲线 

为 了 能 将 本 文 算法 实用 化 ， 就 需要 对 非 控 条 件 下 的 人 脸 做 到 实 
时 检测 。 本 文 算法 的 网 络 结构 是 比较 深 的 ， 尽 管 使 用 DenseNet 
减少 了 滤波 器 个 数 ,但 模型 还 是 比较 大 的 ,参数 还 是 比较 多 的 。 
优化 网 络 结构 成 为 了 重 中 之 重 。 在 测试 阶段 ， 因 为 后 面 的 级 联 
网 络 结构 是 模块 化 的 ， 而 且 每 个 模块 都 可 以 独立 的 完成 网 络 前 
传 ， 这 样 就 可 以 由 6 个 级 联 模块 减少 到 最 少 2 个 级 联 模块 。 通 
过 在 FDDB 数据 集 上 测试 ， 发 现 精度 只 减少 了 0.016， 如 图 8 
(a) 所 示 ， 但 是 速度 却 提升 了 将 近 一 倍 。 整 个 对 比 实验 的 结果 
如 表 1 所 示 。 采用 的 处 理 器 为 英特尔 core 7-7700HQ@2.80 GHz 
八 核 ， 内 存 RAM16 GB， 显 存 8 GB， 显卡 Nvidia Gefore GTX 
1070， 输 入 检测 视频 的 图 像 分 辩 率 为 1920x1080， 检 测 到 的 


nT 


图 6 FDDB 数据 集 检测 结果 


Da 


最 小 脸 分 辩 率 为 10x10 ,在 非 控 场景 下 的 人 脸 检 测 效 果 图 如 
9 所 示 。 


1 


0.9 上 


True positive rate 


stage=2(0.964) 一 -一 
stage=6(0.980) 一 -一 


0 200 400 600 800 1000 1200 1400 1600 
False positives 


(a) Discontinuous ROC curves 


True positive rate 
口 
a 


0.4 
03 
02 | 
ge stage=2(0.729) 一 1] 
站 : | : ; stage=6(0.748) 一 -一 
0 200 400 600 800 1000 1200 1400 1600 


False positives 


(b) Continous ROC curves 
8 stage=2 和 stage=6 FDDB ROC 曲线 
表 1 算法 运行 时 间 对 比 


级 联结 构 平均 检测 帧 速率 ” ROC 曲线 
(stage) (fps) (FDDB) 
2 16 0.964 
6 8 0.980 


为 了 比较 MTCNN、Finding Tiny Faces 和 本 文 算法 (OURS)， 


分 别 在 光线 较 暗 、 姿 态 表情 复杂 、 图 像 分 辨 率 低 、 存 在 人 脸 遮 
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挡 四 种 情况 下 进行 了 实验 。 实验 结果 如 图 10 所 示 。 其 中 第 一 行 存在 很 高 的 误 检 率 ， 而 且 很 难 检测 到 光线 较 暗 的 人 脸 和 分 辩 率 
是 MTCNN 在 以 上 四 种 情况 下 的 检测 结果 ， 不 难 发 现 MTCNN ” 较 低 的 侧 脸 ， 第 二 行 是 Finding Tiny Faces 


jy 
i 


~ 


=- 
图 9 非 控 场景 下 人 脸 检 测 
态 表 情 分 状 率 低 遮挡 


MTCNN 


Finding 


Tiny Face 


OURS 


图 10 三 种 算法 对 比 
在 以 上 四 种 情况 下 的 检测 结果 ; 第 三 行 是 OURS 在 以 上 四 种 情 a 
况 下 的 检测 结果 , 可 以 看 出 Finding Tiny Faces 和 OURS 检测 结 Em | | Tr | 


--- MTCNN 


果 相 差 不 大 ， 只 是 在 分 辩 率 较 低 的 情况 下 ，OURS 对 侧 脸 检测 “| | | 二 下 
比 Finding Tiny Faces 要 好 一 些 。 本 文 还 进行 了 三 种 算法 检测 时 [| 
间 的 对 比 实验 ， 实 验 条 件 如 下 : 使 用 GPU Nvidia Gefore GTX 
1070 对 来 自 AFLWIU71 和 FDDB 的 数据 集 随机 取 3 000 张 ， 这 3 
000 张 图 片 中 有 的 图 片 只 包含 一 个 人 脸 ， 有 的 图 片 包 含 多 个 人 
。 三 种 算法 对 每 个 图 片 检测 100 次 取 平 均 检 测 时 间 ， 结 果 如 
11 所 示 。 图 中 横 坐 标 为 人 脸 数量 ， 纵 坐标 为 检测 时 间 《〈 单 位 1000 
为 ms) 。 可 以 看 到 Finding Tiny Faces 检测 时 间 最 长 且 与 人 脸 
个 数 成 正比 。MTCNN 检测 时 间 与 人 脸 个 数 成 正比 ， 随 着 人 脸 
个 数 的 增多 ， 检 测 时 间 已 经 越 来 越 高 于 OURS 检测 时 间 了 。 ee me re ee ee ma 
OURS 受到 人 脸 个 数 的 影响 相对 较 小 ， 但 也 呈现 出 随 着 人 脸 个 ee 
数 增多 检测 时 间 变 长 的 趋势 。 图 11 人 脸 数 量 和 检测 时 间 关 系 


2000 


run time(ms) 


1500 


500 
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5 ”结束 语 


本 文 提出 的 自 下 而 上 的 人 脸 检 测算 法 ， 过 关键 点 检测 和 关 
键 点 位 置 关系 检测 ,再 进行 人 脸 检测 ,得 到 了 很 好 的 检测 效果 。 
在 FDDB 数据 集 上 与 其 他 几 种 基于 ; 习 的 人 脸 检 测算 法 对 
比 得 到 了 比较 高 的 准确 率 。 更 重要 的 是 ， 本 文 提 出 的 算法 在 面 
对 复杂 的 人 脸 表情 、 人 脸 姿 态 、 人 脸 遮 挡 等 内 在 因素 和 干扰， 外 
背景 环境 复杂 、 光 照 条 件 差 等 诸多 外 界 干扰 因素 下 都 能 得 到 
不 错 的 人 脸 检 测 效果 ， 且 在 检测 时 间 上 受到 人 脸 个 数 的 影响 较 
小 。 经 实测 监控 场景 下 的 视频 最 快 时 能 达到 17 fs， 使 用 GPL 
Nvidia Gefore GTX 1070 在 输入 图 像 分 辩 率 1920x1080 能 检测 
到 最 小 脸 为 10x10。 
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